iT邦幫忙

2022 iThome 鐵人賽

DAY 15
0

論文詳讀

  1. 導論

    1.1 顯式與隱式知識

    • 人類
      • 正常學習知識:藉由視覺、聽覺、觸覺等感知器認知世界。
      • 潛意識學習知識:過去的經驗總結。
      • 應用:正常學習知識與潛意識學習知識,編碼後儲存到大腦(豐富的數據庫)。遭遇不同問題時,會主動地從大大腦中調動相應的知識組合。
    • 神經網路
      • 一般定義
        • 顯式知識:淺層網路獲得的特徵。
        • 隱式知識:深層網路獲得的特徵。
      • 本文定義
        • 顯式知識:直接觀察獲得的特徵。
        • 隱式知識:與觀察無關的特徵。
      • 應用:顯式知識與隱式知識生成一個統一的表徵,從統一的表徵中調動子表徵,解決不同任務。

    1.2 多任務神經網路架構

    • 以不同模型解決不同任務,如下圖( a )。
    • 同一個模型更換不同Head解決不同任務,如下圖( b )。
    • 結合顯式與隱式知識,經過selector調動不同子表徵,解決不同任務。如下圖( c )。

  2. 隱式知識如何作用

    2.1 高維度空間降維:一個好的表徵能在多維空間中找到適當的投影,若目標類別可以藉此投影空間超平面分類,有助於完成不同任務。故本文利用投影向量與隱式表徵內積達成空間降維。

    2.2 核空間對齊(維度歸一)

    • 困境:在多任務及多Head網路中,常出現的核空間錯位的問題而無法集成。
    • 解決方法:對顯示與隱式表徵進行加法與乘法運算(平移、縮放、旋轉),讓兩者的輸出核空間對齊。

    2.3 不同運算子作用

    • 加法:預測中心座標偏移。
    • 乘法:自動探求Anchor超參數集。
    • 內積和串聯:執行多任務的子表徵篩選。

  3. 如何推導統一網路

    3.1 傳統網路:傳統網路訓練時,我們期待對相同目標的不同觀測,是在fθ子空間上的單點(單一子表徵)。如下圖( a )。

    3.2 統一網路:統一網路訓練時,我們期待對不同目標的不同觀測,是在fθ子空間上的T表徵(多個t子表徵的集合),再藉由selector選擇不同的t子表徵,解決不同任務。如下圖( c )。

  4. 實驗比對

    4.1 引入隱式比對

    • FPN特徵對齊:在每個FPN特徵映射時,加入隱式表徵執行特徵對齊。(引入+iFA優於Baseline)。

    • 預測精煉:增加隱式表徵到YOLO輸出層(引入+iPR優於Baseline)。

    • 多任務學習

      • 多任務共享模型執行損失函數聯合優化時,不同任務間會互相影響,導致模型效能差。
      • 故本文提議將隱式表徵引入到不同任務分支,解決此問題。
      • 引入隱式表徵(+iJDC與+iJDE)優於JDC與JDE

    4.2 顯式、隱式知識運算子組合

    • FPN特徵對齊:加法運算與串聯運算均提高模型效能,而前者最佳(+iFA),
    • 預測精煉:因串聯運算會改變表徵維度,故僅比較加法與乘法運算,綜合比較後者較佳(xiPR)。

    4.3 架構統一網路方法比對

    • 向量建模(z)

      • 直接使用向量z作為隱式知識先驗(等於隱式表徵)。
      • 假定維度間相互獨立。
    • 神經網路建模(Wz)

      • 使用向量z作為隱式知識先驗,再利用權重矩陣W進行線性組合或非線性化,獲得隱式表徵。
      • 假定維度間相互依賴。
    • 矩陣分解建模

      • 使用多個向量{z1,...,zn}=Z作為隱式知識先驗,由Z和係數c組成隱式表徵。
      • 假定維度間相互獨立。

    • 比較結果:矩陣分解建模綜合表現最佳。

    4.4 統一網路與其他比對

    • Baseline:選用YOLOv4-P6-light搭配+iFA(加法運算與特徵對齊)與xPR(乘法運算與預測精煉)
    • 訓練方式:依照Scaled-YOLOv4訓練流程,從頭訓練300次回合,再微調訓練150回合。
    • 比對結果
      • 統一網路優於Baseline

      • 統一網路AP比肩Scaled YOLOv4,且有著更高的FPS。此外,雖然沒有引入額外的訓練集和標註,卻有著不遜色於有引入模型的AP。


小結

  1. 下一站,我們前往「YOLOX解析(一)」。

讓我們繼續看下去...


參考資料

  1. YOLOR《You Only Learn One Representation: Unified Network for Multiple Tasks》论文翻译
  2. YOLOR论文翻译+个人理解
  3. 【第24篇】YOLOR:多任务的统一网络

上一篇
《第14天》YOLOR解析(一)
下一篇
《第16天》YOLOX解析(一)
系列文
Object Detection and Image Processing with Python30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言